(網(wǎng)經(jīng)社訊)中共中央政治局4月25日下午就加強(qiáng)人工智能發(fā)展和監(jiān)管進(jìn)行第二十次集體學(xué)習(xí)。西安交通大學(xué)教授鄭南寧同志就這個(gè)問(wèn)題進(jìn)行講解,提出工作建議。
今天刊登一則鄭院士做的一個(gè)報(bào)告,講得非常好,難怪能給政治局講課。以下為報(bào)告全文:
大家好,今天我報(bào)告的題目是“機(jī)器行為與具身智能”。
首先,我們來(lái)看一個(gè)相對(duì)簡(jiǎn)單的十字路口場(chǎng)景,場(chǎng)景中有行人、有非機(jī)動(dòng)車(chē)和機(jī)動(dòng)車(chē),我們看一看它的動(dòng)態(tài)場(chǎng)景是如何構(gòu)成的?十字路口的交通場(chǎng)景是不可預(yù)測(cè)的,但場(chǎng)景中的每個(gè)對(duì)象或稱(chēng)之為Object直覺(jué)的判斷和他們對(duì)相互之間的行為關(guān)系的理解,形成了這樣一個(gè)相互關(guān)聯(lián)的穩(wěn)定系統(tǒng)。
人在這些場(chǎng)景中能夠迅速的理解和判斷各個(gè)對(duì)象在空間及其行為的關(guān)聯(lián)性。而自動(dòng)駕駛也必須要能夠抽象和表述這種關(guān)聯(lián)性,才能做出準(zhǔn)確地判斷,而事實(shí)上我們要讓機(jī)器機(jī)基于規(guī)律對(duì)交通場(chǎng)景的動(dòng)態(tài)變化進(jìn)行事先編碼是做不到的,我們需要研究在這種交互場(chǎng)景中,多個(gè)自主體的自適應(yīng)行為。
舉例來(lái)看,在F1比賽中,工作人員利用團(tuán)隊(duì)協(xié)作可以迅速地完成車(chē)輛輪胎的替換工作,如何利用機(jī)器人集群協(xié)作完成某項(xiàng)任務(wù)并給出科學(xué)的解釋?zhuān)且粋€(gè)值得探討的問(wèn)題。
討論1:機(jī)器行為模仿與解釋
解釋行為是一個(gè)比產(chǎn)生行為更為困難的任務(wù),因?yàn)閹缀跞祟?lèi)所有的行為都是從環(huán)境中學(xué)來(lái)的,即刺激反應(yīng)的結(jié)果。并不都像思維和情感這樣的內(nèi)部事件,一臺(tái)圖靈機(jī)能以一種無(wú)法與人類(lèi)區(qū)別的方式活動(dòng),但產(chǎn)生出這樣的行為模仿并不足以模擬人的智能,因?yàn)閮烧呤且粋€(gè)完全不同的問(wèn)題。解釋必須盡可能清晰地給出潛在的概括,并將它們與某些普遍的原理聯(lián)系起來(lái),這就是認(rèn)知過(guò)程的理解。
如果我們從人工智能技術(shù)的發(fā)展來(lái)看,我們可以把人工智能技術(shù)的發(fā)展分為如下階段:
第一階段,統(tǒng)稱(chēng)之為“專(zhuān)家學(xué)習(xí)系統(tǒng)”,專(zhuān)家系統(tǒng)是將領(lǐng)域知識(shí)和規(guī)則交給機(jī)器去搜索。
第二階段,簡(jiǎn)稱(chēng)為“特征工程”,所謂特征工程是講事先定義的特征和答案交給機(jī)器去學(xué)習(xí)。
第三階段,是將原始數(shù)據(jù)和標(biāo)簽交給機(jī)器,利用深度神經(jīng)網(wǎng)絡(luò)讓機(jī)器自動(dòng)學(xué)習(xí)特征。在這一階段人工智能取得了驚人的發(fā)展,特別是機(jī)器在語(yǔ)音和圖像識(shí)別與分類(lèi)能力方面超過(guò)了人類(lèi)。
當(dāng)前人工智能發(fā)展朝著第四階段的方向發(fā)展,人類(lèi)只需要將任務(wù)和目標(biāo)交給機(jī)器,機(jī)器就可以像人類(lèi)一樣感知和理解世界,人與人之間或社會(huì)會(huì)與物理世界自然交互,也就是說(shuō)在這一階段探索具有人類(lèi)意識(shí)的人工智能系統(tǒng),像人類(lèi)一樣在廣泛的任務(wù)和環(huán)境中進(jìn)行學(xué)習(xí)和適應(yīng),實(shí)現(xiàn)通用人工智能。
通用人工智能理論上是具有自我意識(shí)、自主思考、學(xué)習(xí)計(jì)劃、解決問(wèn)題以及理解復(fù)雜概念的能力,它可以在新的未曾遇到的情景下適應(yīng)并執(zhí)行任務(wù),這需要廣泛的背景知識(shí)和常識(shí),還有抽象思維和判斷等人類(lèi)智能所有的關(guān)鍵特征,這是一個(gè)充滿(mǎn)著不確定性的未來(lái)目標(biāo)。
討論2:機(jī)器行為面臨的挑戰(zhàn)
人工通用智能現(xiàn)在不僅僅在技術(shù)上面臨著重大挑戰(zhàn),而且還面臨著道德倫理、社會(huì)和法律等一系列重大問(wèn)題。
研究復(fù)雜動(dòng)態(tài)不確定環(huán)境中的機(jī)器行為,存在著兩個(gè)基本問(wèn)題:
一、條件問(wèn)題,是我們不可能枚舉出一個(gè)行為的所有先決條件;
二、分枝問(wèn)題,是我們不可能枚舉出一個(gè)行為有可能產(chǎn)生的所有隱性結(jié)果。
傳統(tǒng)的人工智能基本理論框架是建立在演繹邏輯和語(yǔ)義描述與形式化方法的基礎(chǔ)上,形式化的方法不可能為所有的對(duì)象或行為建立模型。
機(jī)器行為研究面臨的挑戰(zhàn),就是如何使人工智能系統(tǒng)具有合作性的行為。
德國(guó)心理學(xué)家設(shè)計(jì)了一個(gè)兒童心理學(xué)實(shí)驗(yàn),實(shí)驗(yàn)中一位一歲半的兒童和媽媽坐在同一個(gè)房間的角落里,一位成年人走進(jìn)房間想打開(kāi)柜門(mén),他一遍遍的撞擊著柜門(mén),這時(shí)神奇的場(chǎng)景發(fā)生了,并沒(méi)有人直接向這位孩子求助,也沒(méi)有人向他發(fā)出指令,但一歲半的孩子搖搖晃晃走過(guò)來(lái),幫助這個(gè)成年人打開(kāi)了柜門(mén)。
該實(shí)驗(yàn)試圖想證明孩子可以自發(fā)的幫助別人,但這個(gè)實(shí)驗(yàn)卻對(duì)人工智能提出了一個(gè)重大挑戰(zhàn),我們能否通過(guò)理解這個(gè)一歲半孩子的腦內(nèi)所想,讓機(jī)器人也能具有這樣的智能性、靈活性與合作性行為?
這個(gè)實(shí)驗(yàn)告訴我們,智能機(jī)器不能從工程機(jī)器的角度去理解它們,而且要將其視為一系列有自己行為模式及生態(tài)反應(yīng)的個(gè)體或機(jī)器群體。
另外一個(gè)實(shí)例,給出一段西安絕句“海棠不惜胭脂色、獨(dú)立蒙蒙細(xì)雨中”。讓計(jì)算機(jī)語(yǔ)言理解的程序和人,分別從一個(gè)圖像數(shù)據(jù)庫(kù)中找出最貼切這段詩(shī)的圖像。計(jì)算機(jī)找出了這樣一幅圖,海棠上掛滿(mǎn)著雨滴,正真是“海棠不惜胭脂色、獨(dú)立蒙蒙細(xì)雨中”。而人卻給出右邊這幅圖,一位亭亭玉立的少女在蒙蒙的細(xì)雨中沒(méi)有打傘,行走在幽靜的小道上。被測(cè)試的人在內(nèi)心把這位少女比作海棠,在這樣的雨天這位少女全然不顧風(fēng)雨的存在。人類(lèi)理解詩(shī)歌往往是在內(nèi)心深處將想象力帶入現(xiàn)實(shí),通過(guò)自身的認(rèn)知去欣賞。
這首西安絕句是宋代詩(shī)人陳與義所寫(xiě)的《春寒》,當(dāng)時(shí)金兵入侵,南宋小朝廷處于山河破碎風(fēng)飄絮,詩(shī)人南渡避難,借助在巴陵友人的后院,自號(hào)“園公”。2月的巴陵幾乎天天下雨,料峭的春寒還未結(jié)束,此時(shí)詩(shī)人流離失所,漂泊無(wú)依,不由地聯(lián)想起自身的境遇進(jìn)行感懷,寫(xiě)下了這首詩(shī)。
在這里,我們看到一幅圖像到了人類(lèi)觀察者的腦中,在他的內(nèi)心深處將想象力帶入了現(xiàn)實(shí),圖像變成了生動(dòng)的場(chǎng)景故事。這里簡(jiǎn)單的語(yǔ)言與圖像的聯(lián)想,說(shuō)明許多重要的AI應(yīng)用,例如機(jī)器視覺(jué)和自然語(yǔ)言理解需要大量對(duì)世界的認(rèn)識(shí)信息。
為此,計(jì)算機(jī)需要掌握知識(shí),這是幾乎所有AI研究者都同意的觀點(diǎn)。想象是人的一種虛構(gòu)的能力,也就是人可以想象不存在事物的能力,但如何更加有效地把知識(shí)傳授給機(jī)器人,依然是我們今天面臨的一大挑戰(zhàn)。
討論3:機(jī)器行為的研究范圍
諾貝爾獎(jiǎng)獲得者西蒙教授,在《人工科學(xué)》這本書(shū)中指出:自然科學(xué)是關(guān)于自然體和自然現(xiàn)象的科學(xué)知識(shí),也有人工科學(xué)關(guān)于人工物體和人工現(xiàn)象的知識(shí)。
如今,大量的智能機(jī)器應(yīng)用于人類(lèi)社會(huì)的各個(gè)角落,幾乎所有層面。機(jī)器行為研究關(guān)注的是智能機(jī)器,而非傳統(tǒng)的機(jī)械。它的研究范圍有:機(jī)器行為生成的人工設(shè)計(jì),智能體如何憑借經(jīng)驗(yàn)產(chǎn)生行為。還有機(jī)器行為的可解釋性,智能體如何根據(jù)場(chǎng)景響應(yīng)機(jī)器行為。
機(jī)器行為一旦失去監(jiān)督所帶來(lái)的潛在危害是什么?
這些問(wèn)題與智能體和人工智能行為的信任是密切關(guān)聯(lián)的。諾貝爾獎(jiǎng)得主、荷蘭動(dòng)物學(xué)家Tinbergen提出:想要全面地理解一個(gè)演化出來(lái)的特性,我們需要回答四個(gè)問(wèn)題:
1、行為生成的機(jī)制,智能體生成行為的機(jī)制基于其算法和執(zhí)行環(huán)境的特點(diǎn),我們利用可解釋性技術(shù)可以來(lái)理解特定行為模式背后的特定機(jī)制;
2、行為的發(fā)展,智能體的行為是隨著時(shí)間的推移而發(fā)展,這就需要研究機(jī)器是如何獲得特定個(gè)體或機(jī)體行為。行為發(fā)展可以是工程選擇的結(jié)果,也可能是來(lái)自智能體的經(jīng)驗(yàn);
3、行為的功能,行為分析需要了解特定行為是如何影響智能體全生命周期功能,研究行為對(duì)智能體特定功能的影響;
4、行為的進(jìn)化,智能體容易受到進(jìn)化歷史和與其他智能體交互的影響,從這個(gè)角度來(lái)看,研究機(jī)器行為需要關(guān)注智能體的進(jìn)化。
以上這四個(gè)問(wèn)題就構(gòu)成了演化思維的四個(gè)工具,需要強(qiáng)調(diào)的是發(fā)展并不僅僅意味著一種行為的出現(xiàn),而是發(fā)展過(guò)程中行為機(jī)制的變化。
討論智能個(gè)體如何獲得特定的行為,即機(jī)器行為的發(fā)展。這里有三個(gè)基本的途徑:
第一個(gè)途徑:人類(lèi)通過(guò)算法直接賦予機(jī)器行為的發(fā)展;
第二個(gè)途徑:利用特定的交互訓(xùn)練,刺激、塑造機(jī)器行為;
第三個(gè)途徑:機(jī)器通過(guò)自身的經(jīng)驗(yàn)獲得某些行為,比如說(shuō)機(jī)器可以通過(guò)記憶或強(qiáng)化學(xué)習(xí)等方式自主獲得某種行為的能力。
機(jī)器行為的進(jìn)化過(guò)程中,機(jī)器行為可以在發(fā)展中與所處環(huán)境和人不斷地交互,朝著環(huán)境和人特定的方向進(jìn)化。
同時(shí)由于機(jī)器不同于生命體,它的進(jìn)化可以突破某種生命體的局限性,而且可進(jìn)化的機(jī)器行為可以傳播至群體廣泛的機(jī)器行為存在,也可能受到某些限制,阻止其傳播,機(jī)器可表現(xiàn)出非常不同于有機(jī)進(jìn)化的軌跡。比如進(jìn)化后的無(wú)人駕駛算法,可以共享至無(wú)人駕駛汽車(chē)群體,實(shí)現(xiàn)行為能力的傳播。
對(duì)此,我們對(duì)人與智能機(jī)器的行為關(guān)聯(lián)做一個(gè)小結(jié):
1、機(jī)器塑造了人類(lèi)行為:在社會(huì)系統(tǒng)中引入智能機(jī)器可以改變?nèi)祟?lèi)行為的方式,智能機(jī)器具有改變社會(huì)結(jié)構(gòu)的潛力。
2、人類(lèi)塑造了機(jī)器行為:人類(lèi)通過(guò)對(duì)人工智能系統(tǒng)進(jìn)行主動(dòng)輸入或被動(dòng)行為觀察的訓(xùn)練來(lái)塑造機(jī)器行為,使用算法直接來(lái)改變機(jī)器的行為。
3、人機(jī)混合協(xié)同行為:大多數(shù)人工智能算法在復(fù)雜的混合系統(tǒng)中與人類(lèi)共存的領(lǐng)域發(fā)揮著重要作用,如何分析和刻畫(huà)這類(lèi)復(fù)雜系統(tǒng)中人機(jī)交互的屬性和行為,包括合作、競(jìng)爭(zhēng)和協(xié)調(diào)都是至關(guān)重要的問(wèn)題。
討論4:具身智能和行為生成
具身智能是一種機(jī)器自主感知環(huán)境、學(xué)習(xí)和理解行動(dòng)的能力,從生物進(jìn)化的角度來(lái)看,地球上所有智力活動(dòng)都是生物通過(guò)自己的身體與環(huán)境交互后,通過(guò)自身學(xué)習(xí)與進(jìn)化遺留下來(lái)的智力遺產(chǎn)。
智能是具身化和情境化的,具身智能強(qiáng)調(diào)智能生物的智能化程度和它的身體結(jié)構(gòu)存在著很強(qiáng)的相關(guān)性,也就是說(shuō)身體不是等待加載算法的機(jī)器,而是身體本身應(yīng)該參與算法的進(jìn)化。
非具身學(xué)習(xí)和具身學(xué)習(xí)對(duì)比是有差異的。非具身學(xué)習(xí)一般通過(guò)“大模型無(wú)監(jiān)督預(yù)訓(xùn)練+小樣本有監(jiān)督微調(diào)”范式訓(xùn)練神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到的深度學(xué)習(xí)模型可以直接部署到不同的硬件環(huán)境,即算法的學(xué)習(xí)獨(dú)立于硬件與環(huán)境,性能表現(xiàn)完全取決于模型的泛化能力。而具身學(xué)習(xí)通過(guò)在虛擬環(huán)境中訓(xùn)練大模型得到常識(shí)表征,在具體場(chǎng)景中通過(guò)強(qiáng)化學(xué)習(xí)來(lái)完成模型的進(jìn)化,模型可以在特定的硬件和環(huán)境中完成自主的適配。
由于大模型利用了超大規(guī)模的訓(xùn)練數(shù)據(jù),并且包含大量參數(shù),使得它具備了超強(qiáng)的泛化能力與優(yōu)秀的應(yīng)用性能。大模型的具身智能行為生成可以分為兩大部分:一、人機(jī)交互;二、系統(tǒng)與環(huán)境的交互在人機(jī)交互部分,人與自然語(yǔ)言或圖文信息的形式,將任務(wù)需求輸入到多模態(tài)大模型中,模型對(duì)不同形式的輸入進(jìn)行特征的嵌入后,完成任務(wù)理解和概念推演,并生成知識(shí)和決策,最后由機(jī)器人生成面向任務(wù)指令的相應(yīng)行為。
在系統(tǒng)與環(huán)境交互部分,機(jī)器人首先利用自身傳感器,完成對(duì)情境的具身感知,然后根據(jù)大模型的學(xué)習(xí)結(jié)果對(duì)情境產(chǎn)生行為,最終完成行為的輸出。
討論5:基于表征學(xué)習(xí)與因果推理的具身智能計(jì)算框架
要想使機(jī)器具有類(lèi)人的認(rèn)知能力,首先要建立事件模型,將物體、事件、事實(shí)等知識(shí)進(jìn)行有效表征,進(jìn)而構(gòu)建一個(gè)持續(xù)學(xué)習(xí)的系統(tǒng),在解決一個(gè)具體任務(wù)時(shí),機(jī)器根據(jù)感知數(shù)據(jù)、意識(shí)先驗(yàn)、表征學(xué)習(xí)、知識(shí)庫(kù)進(jìn)行推理,尋找完成任務(wù)的最優(yōu)策略。
意識(shí)先驗(yàn)的概念比較抽象,當(dāng)你處在一個(gè)情景中,試圖去理解它,你會(huì)意識(shí)到它某些現(xiàn)實(shí)層面的情景或過(guò)去的經(jīng)歷。意識(shí)先驗(yàn)是在原始輸入和某些更高級(jí)表征基礎(chǔ)上形成的抽象層次。
討論6:動(dòng)態(tài)開(kāi)放環(huán)境中的人機(jī)協(xié)同的具身智能
為了讓具身智能表現(xiàn)的更像人類(lèi)智能,還需要在動(dòng)態(tài)開(kāi)放的環(huán)境中強(qiáng)化人機(jī)協(xié)同。以往的運(yùn)動(dòng)策略學(xué)習(xí)傾向于把人排除在外,僅由試錯(cuò)、搜索獲得盡可能大的長(zhǎng)期累積回報(bào)的策略,無(wú)法適應(yīng)開(kāi)放動(dòng)態(tài)的環(huán)境。
而人在回路的決策學(xué)習(xí),由任務(wù)、目標(biāo)引導(dǎo)搜索,實(shí)現(xiàn)行為決策的類(lèi)人化。此外,還可以通過(guò)嵌入式視覺(jué)學(xué)習(xí)、模仿學(xué)習(xí)和交互學(xué)習(xí),引入人的作用。
動(dòng)態(tài)開(kāi)放環(huán)境中人機(jī)協(xié)同具身智能的一種基本框架。人在回路的人機(jī)協(xié)同決策可以使具身智能向人類(lèi)學(xué)習(xí)。自動(dòng)駕駛系統(tǒng)通過(guò)行為克隆向人類(lèi)駕駛員學(xué)習(xí),自動(dòng)駕駛系統(tǒng)通過(guò)10個(gè)小時(shí)的學(xué)習(xí)已具有基本的駕駛行為,但仍然無(wú)法避障和應(yīng)對(duì)突發(fā)事件。
自動(dòng)駕駛面臨著哪些挑戰(zhàn)?
自動(dòng)駕駛是開(kāi)放環(huán)境中一類(lèi)重要典型具身智能系統(tǒng),在復(fù)雜交通環(huán)境下,自動(dòng)駕駛安全要有可靠的駕駛行為。
首先,它需要解決復(fù)雜交通場(chǎng)景中的“周密感知”,無(wú)論天氣或照明情況如何,必須在所有條件下檢測(cè)道路特征。
其次,它需要進(jìn)行“預(yù)行為”的理解,因?yàn)槿祟?lèi)駕駛員都是根據(jù)預(yù)行為傳達(dá)行駛意圖。
再次,它需要對(duì)“意外遭遇”做出應(yīng)對(duì),而簡(jiǎn)單的基于規(guī)則的自動(dòng)駕駛不可能提前為每個(gè)場(chǎng)景編碼。
最后,“網(wǎng)絡(luò)安全”,如軟件的漏洞或黑客的惡意行為等等。
自動(dòng)駕駛行為是如何生成的?
首先,系統(tǒng)結(jié)合經(jīng)驗(yàn)與常識(shí)、場(chǎng)景理解以及交通態(tài)勢(shì)評(píng)估,并利用模型對(duì)結(jié)構(gòu)化道路場(chǎng)景和非結(jié)構(gòu)化道路場(chǎng)景進(jìn)行預(yù)訓(xùn)練,生成導(dǎo)航路徑。
隨后,基于具身智能完成目標(biāo)狀態(tài)采樣、待選運(yùn)動(dòng)路徑生成和最優(yōu)運(yùn)動(dòng)路徑選擇,進(jìn)行運(yùn)動(dòng)規(guī)劃,最后生出合理的、可執(zhí)行的駕駛行為。
重點(diǎn)討論自動(dòng)駕駛行為決策,將思維抽象為符號(hào)計(jì)算對(duì)人工智能的發(fā)展產(chǎn)生了重大的推動(dòng)作用,但為所有的交通對(duì)象建立模型是不可能的。
帶來(lái)這些困難的一個(gè)直接原因是:許多交通場(chǎng)景的復(fù)雜性和動(dòng)態(tài)性,并不都是可觀測(cè)和可控的,行駛過(guò)程中對(duì)異常情況的處理能力,是無(wú)法通過(guò)事先大量樣本訓(xùn)練得到,而且也無(wú)法獲得大量的負(fù)樣本,交通事故就是一大類(lèi)負(fù)樣本,而人類(lèi)駕駛員開(kāi)車(chē)是將車(chē)外的無(wú)窮狀態(tài)空間約簡(jiǎn)為動(dòng)態(tài)變化的“可行駛”的“二域狀態(tài)空間”,自動(dòng)駕駛行為決策就是要尋找一個(gè)可行駛區(qū)域。
因此,從認(rèn)知層面要解決的問(wèn)題,就是如何把復(fù)雜未知的現(xiàn)實(shí)世界,變化成有限空間環(huán)境的語(yǔ)義理解,我們把它稱(chēng)之為一種直觀的理解。
怎樣定義自動(dòng)駕駛這個(gè)問(wèn)題?
需要把場(chǎng)景感知和情景認(rèn)知區(qū)別開(kāi)來(lái)。
所謂場(chǎng)景是指某個(gè)交通場(chǎng)合在一個(gè)特定的時(shí)間和特定的空間中,具體情景或景象,可以定義為一種實(shí)體,當(dāng)然這種實(shí)體的描述是通過(guò)傳感器的數(shù)據(jù)來(lái)獲得的。
情境是指某一段時(shí)間和空間許多具體情形的概括,情境的境是指構(gòu)成和隱含在場(chǎng)景中,相互交織的因素及其相互之間的關(guān)系,所以情境計(jì)算是對(duì)場(chǎng)景中各個(gè)對(duì)象在空間的行為交互關(guān)系解釋?zhuān)煌▓?chǎng)景中各種物體或?qū)ο罂臻g關(guān)系和行為的描述在自動(dòng)駕駛中就顯得非常重要了。
如何發(fā)展一種具有進(jìn)化的、自主學(xué)習(xí)的自動(dòng)駕駛系統(tǒng)?
需要從認(rèn)知的角度去了解人類(lèi)駕駛員是如何注意并獲取交通環(huán)境信息的。而交通環(huán)境信息是如何在大腦中存儲(chǔ)和加工的,特別是在產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征。
首先,我們來(lái)看看人類(lèi)駕駛員如何注意并獲取交通環(huán)境的信息。在交通場(chǎng)景認(rèn)知的選擇性注意中,目標(biāo)的重要性是一種高級(jí)屬性,它包含目標(biāo)的物理屬性、運(yùn)動(dòng)屬性、行為屬性。
其次,我們以交通場(chǎng)景的注意、記憶和學(xué)習(xí)過(guò)程為例,簡(jiǎn)單討論人類(lèi)對(duì)交通場(chǎng)景認(rèn)知的加工機(jī)制。人的大腦對(duì)感覺(jué)記憶中的一些特定信息的注意即選擇,對(duì)注意到的信息進(jìn)行組織,再通過(guò)學(xué)習(xí)在短期記憶中建立聯(lián)系,將長(zhǎng)期記憶的信息傳遞到短期記憶,以連接傳入的數(shù)據(jù),即整合。最后將短期記憶的內(nèi)容進(jìn)行編碼,轉(zhuǎn)換為長(zhǎng)期記憶。
在組織、整合與編碼之間存在著交互機(jī)制,實(shí)際上人在知道發(fā)生了什么之前,他的注意力已被顯著性對(duì)象所捕獲,人類(lèi)駕駛員對(duì)交通場(chǎng)景的理解是在記憶和先驗(yàn)知識(shí)的基礎(chǔ)上進(jìn)行的模式匹配。
自動(dòng)駕駛算法需要在一定程度上引入人類(lèi)對(duì)交通場(chǎng)景認(rèn)知的加工機(jī)制,人類(lèi)對(duì)變化非常敏感,突然變化,比如說(shuō)顏色、紋理、大小、位置、運(yùn)動(dòng),對(duì)注意力影響最大。
注意機(jī)制已經(jīng)成為構(gòu)建自動(dòng)駕駛AI架構(gòu)的靈感來(lái)源。
產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征問(wèn)題?
人類(lèi)駕駛員在駕駛過(guò)程中是將車(chē)窗外無(wú)窮狀態(tài)空間約簡(jiǎn)為動(dòng)態(tài)變化的“可行駛”和“不可行駛”的“二域狀態(tài)空間”,并根據(jù)常識(shí)和交通規(guī)則,以及對(duì)交通場(chǎng)景的感知來(lái)產(chǎn)生相應(yīng)的駕駛行為。
因此,自動(dòng)駕駛需要對(duì)交通環(huán)境進(jìn)行分層的認(rèn)知表征,它們分別是空間定位層、行為模型層、知識(shí)策略層和任務(wù)驅(qū)動(dòng)層,這樣就可以從認(rèn)知的層面將復(fù)雜、未知的現(xiàn)實(shí)世界變換成有效的自覺(jué)物體的語(yǔ)義推理。
如何構(gòu)建自動(dòng)駕駛環(huán)境的“認(rèn)知地圖“?
構(gòu)建自動(dòng)駕駛認(rèn)知地圖需要包括車(chē)輛、交通標(biāo)識(shí)、障礙物、行人等構(gòu)成的可行駛區(qū)域的基本屬性。同時(shí)要有遞歸網(wǎng)絡(luò)所學(xué)習(xí)到的關(guān)于預(yù)注意機(jī)制、駕駛意圖等高級(jí)認(rèn)知屬性,把車(chē)輛當(dāng)前狀態(tài)與交通知識(shí)作為認(rèn)知地圖的一部分。
要根據(jù)場(chǎng)景動(dòng)態(tài)的變化,來(lái)形成實(shí)踐上的認(rèn)知地圖的訓(xùn)練。依賴(lài)認(rèn)知地圖就可以使自動(dòng)駕駛系統(tǒng)從類(lèi)人的角度去理解交通場(chǎng)景正在發(fā)生的動(dòng)態(tài)隨機(jī)變化。
這里進(jìn)一步給出一種具有選擇性注意機(jī)制的自動(dòng)駕駛認(rèn)知計(jì)算實(shí)現(xiàn)架構(gòu)。在這個(gè)計(jì)算架構(gòu)中,利用卷積神經(jīng)網(wǎng)絡(luò)提取場(chǎng)景的顯著性空間特征,這些特征與先驗(yàn)知識(shí)相結(jié)合,形成一種對(duì)時(shí)間可視化認(rèn)知地圖,通過(guò)長(zhǎng)短期記憶的注意機(jī)制,界定認(rèn)知地圖中物體間的關(guān)聯(lián),然后通過(guò)價(jià)值迭代模型將對(duì)環(huán)境的認(rèn)知映射到行為空間,給出行駛決策。
仿真測(cè)試也是自動(dòng)駕駛重要的關(guān)鍵技術(shù)之一,自動(dòng)駕駛汽車(chē)在大規(guī)模商業(yè)化應(yīng)用前需要進(jìn)行大量的測(cè)試,相關(guān)研究報(bào)告指出:在不犯錯(cuò)誤的情況下,自動(dòng)駕駛汽車(chē)需要行駛4.4億公里,才能證明其在車(chē)禍致死率和人類(lèi)駕駛員的水平相當(dāng)。
假設(shè)由100輛自動(dòng)駕駛汽車(chē),每天測(cè)試24小時(shí),一年測(cè)試365天,測(cè)試平均時(shí)速60公里每小時(shí),需要耗時(shí)8.37年。相當(dāng)于一輛車(chē)在地球與月球之間往返572次,顯然采用實(shí)際道路測(cè)試將耗費(fèi)大量時(shí)間。而仿真測(cè)試可以提供一種高效率、低成本的自動(dòng)駕駛測(cè)試。
作為自動(dòng)駕駛重要的關(guān)鍵技術(shù),仿真測(cè)試需要關(guān)注的一大挑戰(zhàn)為異常交通場(chǎng)景的感知與處理,由于異常交通場(chǎng)景出現(xiàn)概率低、缺乏測(cè)試數(shù)據(jù),因此需要利用圖形學(xué)、計(jì)算機(jī)視覺(jué)生成多樣化測(cè)試數(shù)據(jù),在仿真環(huán)境中對(duì)自動(dòng)駕駛車(chē)輛進(jìn)行充分快速的測(cè)試驗(yàn)證。
這里我們給出了一種基于大模型的自動(dòng)駕駛仿真技術(shù)的基本框架,應(yīng)用機(jī)器學(xué)習(xí)可以生成多樣性交通場(chǎng)景來(lái)評(píng)價(jià)自動(dòng)駕駛系統(tǒng)在不同交通場(chǎng)景下的駕駛性能,如安全性、舒適性、協(xié)調(diào)性,以及算法的可靠性,以及是否遵守相關(guān)法律法規(guī)。該基本框架由數(shù)據(jù)集包括注入的真實(shí)傳感器數(shù)據(jù)、機(jī)器場(chǎng)景描述、測(cè)試場(chǎng)景分類(lèi)、典型場(chǎng)景選擇與表征、典型場(chǎng)景生成,包含一些副樣本等五大部分組成。
這里是自動(dòng)駕駛仿真系統(tǒng)測(cè)試生成多樣性交通場(chǎng)景,如前車(chē)變道,對(duì)交通場(chǎng)景標(biāo)識(shí)識(shí)別,夜間會(huì)車(chē),以及前方突然出現(xiàn)行人。我們團(tuán)隊(duì)開(kāi)展自動(dòng)駕駛研究二十余年,走到今天我們?nèi)〉昧撕艽蟮倪M(jìn)步,但實(shí)現(xiàn)完全自動(dòng)駕駛依然是一個(gè)令人興奮而又望而生畏的艱難挑戰(zhàn)。
最后給出一個(gè)移動(dòng)智能體在開(kāi)放環(huán)境下基于視覺(jué)和激光雷達(dá)生成導(dǎo)航路徑的短視頻。
今天我的報(bào)告就到這里,謝謝大家!